Trik koji će vam uštedeti sate!

Nova funkcija: Gemini pretvara snimke u tekst za jednu sekundu

Autor: Darko Mulić

Sre, 10.09.2025. 16:00h

Foto: Shutterstock

Google Gemini sada omogućava trenutno pretvaranje audio snimaka u tekst sa vremenskim oznakama i prepoznavanjem govornika. Funkcija radi za MP3, M4A i WAV fajlove i dostupna je na mobilnim i web verzijama aplikacije.

Google je lansirao novu funkcionalnost unutar svoje AI aplikacije Gemini, koja omogućava trenutno pretvaranje audio snimaka u tekstualne transkripte. Korisnicima je sada dovoljno da pošalju fajl, a sistem će u roku od jedne sekunde isporučiti transkript sa vremenskim oznakama i jasno označenim govornicima.

Ova opcija je posebno korisna u poslovnim i obrazovnim okruženjima, gde se sastanci, intervjui i predavanja često snimaju, ali retko ko ima vremena da ih kasnije detaljno preslušava. Gemini sada taj deo posla preuzima na sebe, štedeći sate mukotrpnog rada.

Foto: Shutterstock

Upotreba jednostavna, podržani najčešći formati

Nova funkcija je već dostupna korisnicima na mobilnim telefonima i u web verziji aplikacije. U okviru Gemini interfejsa, dovoljno je kliknuti na znak plus i izabrati opciju za slanje fajla, što otvara mogućnost brzog unosa audio sadržaja.

Podržani su popularni formati kao što su MP3, M4A i WAV, što pokriva gotovo sve vrste snimaka sa telefona, diktafona ili računara. Time se eliminišu dodatni koraci konverzije, a korisničko iskustvo ostaje jednostavno i efikasno.

Foto: Shutterstock

AI prepoznaje govornike i beleži tačno vreme

Gemini ne zaustavlja se samo na prostom prepisivanju. Transkripti dolaze sa preciznim vremenskim oznakama, što omogućava korisnicima da lako pronađu ključne delove razgovora. Ovo je posebno korisno u analizama i pripremama izveštaja.

Još jedan važan dodatak je automatsko prepoznavanje govornika. AI detektuje promene u glasu i strukturi govora, pa u transkriptu jasno označava ko je kada govorio, što dodatno olakšava praćenje složenih dijaloga i višeslojnih razgovora.

Foto: Shutterstock

Ograničenja postoje, ali funkcionalnost oduševljava

Iako je funkcija moćna, trenutno postoji ograničenje: korisnik može poslati maksimalno deset audio fajlova po jednoj sesiji. Ovaj limit je verovatno uveden kako bi se održao stabilan rad servisa pri velikim opterećenjima.

Ipak, ovo ograničenje ne umanjuje utisak - Gemini pokazuje zavidnu brzinu i tačnost u obradi zvuka. Prvi korisnici već dele pozitivne komentare, naglašavajući da su transkripti gotovo bez greške, čak i u uslovima slabijeg kvaliteta zvuka.

Foto: Shutterstock

Google širi viziju Geminija kao centralnog AI alata

Josh Woodward, potpredsednik Google Labs i vođa Gemini tima, potvrdio je da je upravo podrška za audio fajlove bila najčešći zahtev korisnika. Njihovo slušanje nije ostalo bez odgovora sada je opcija dostupna svima.

Ovim dodatkom, Gemini se polako transformiše iz eksperimentalnog AI četa u ozbiljan alat za svakodnevnu upotrebu. Sa podrškom za tekst, slike i sada zvuk, jasno je da Google želi da Gemini postane centralna platforma za rad sa svim vrstama digitalnog sadržaja.

Zabranjeno preuzimanje dela ili čitavog teksta i/ili foto/videa, bez navođenja i linkovanja izvora i autora, a u skladu sa odredbama WMG uslova korišćenja i Zakonom o javnom informisanju i medijima.